Search results for "valodas apstrāde"
showing 10 items of 17 documents
Studējošo jautājumu dabiskās valodas analīze
2020
Latvijas Universitātes (LU) studentiem bieži rodas jautājumi vai neskaidrības par kādas situācijas risināšanu, kas tiek uzdoti LU forumā. Bakalaura darbā ir veikta šādu studējošo jautājumu dabiskās valodas analīze un to pielietojuma iespējas jautājumu un atbilžu sistēmas izveidē. Darbā tiek veikta atšķirīgu datu apjoma izmaiņu metožu salīdzināšana un pielietošanas ieguvuma izvērtēšana, veicot studējošo jautājumu mērķa noteikšanas moduļa izveidi. Darbā veikta studējošo jautājumu reprezentācijas izveide izmantojot vārdu maisa metodi, BERT un FastText modeļus, veikta mērķa klasifikācija, sasniedzot 86% precizitāti mērķa noteikšanā četrām dažādām jautājumu kategorijām.
Datora ģenerēta dzeja
2022
Pēdējos gados ir bijuši vairāki mēģinājumi ar datora palīdzību automātiski ģenerēt arī ko radošu – vizuālās mākslas radīšana, radoša teksta ģenerēšana vai pat mūzikas skaņdarbu komponēšana – šīs ir tikai dažas no jomām, ar kurām darbojas mākslīgais intelekts. Dabiskās valodas ģenerēšana ir visai daudzsološa mākslīgā intelekta un datorlingvistikas apakšnozare, kuras galvenais mērķis ir izstrādāt datorprogrammas, kas spēj radīt cilvēkiem uztveramu tekstu. Starp automātiski ģenerētajiem teksta veidiem var atrast pat dažādas laika prognozes, biogrāfijas, kā arī tekstus, kas ietver sevī radošumu – dažādus stāstus, jokus vai dzeju. Automātiskā dzejas ģenerēšana ir šķietami sarežģīts uzdevums un ļ…
Dabiskās Valodas Dziļo Neironu Tīklu Ģeneratora GPT-2 Sniegums Latviešu un Angļu Valodā
2021
Darbs ir veltīts dabiskās valodas apstrādes tēmas un modeļa GPT-2 izpētei un tā snieguma novērtēšanai angļu valodā, kā arī pielāgota valodas modeļa realizēšanai un apmācībai tekstu ģenerēšanai arī latviešu valodā. GPT-2 ir liels dabiskās valodas apstrādes modelis, kas ir paplašināts no GPT modeļa, daudzkārt palielinot modeļa parametru skaitu un apmācot to uz vairāk treniņa datiem. GPT-2 modeļa apmācībai izmantots valodas korpuss no interneta mājaslapu tekstiem, atšķirībā no GPT modeļa, kura apmācībai izmantots valodas korpuss no grāmatu tekstiem. Šis modelis ir radīts ar mērķi paredzēt nākamo vārdu, ņemot vērā iepriekš esošos vārdus konkrētā tekstā. Apstrādājot iepriekš dotu tekstu, ar GPT-…
Pēc loģikas līdzīgu teikumu meklēšana, izmantojot mašīnmācīšanās metodes
2018
Mūsdienās ļoti strauji pieaug mašīnmācīšanās popularitāte, kas rezultējas ar dažādu metožu izveidi valodas apstrādes jomā, bet lielākā daļa no šīm metodēm tiek izstrādātas priekš angļu valodas. Darbā tika izvirzīts mērķis aplūkot un salīdzināt populārākās metodes, kas ļauj salīdzināt teikumus pēc to loģikas un pārbaudīt tās uz latviešu valoda, lai gūtu priekšstatu par to, kuras no tām ir efektīvākas. Darba ietvaros tika pētītas mašīnmācīšanās dabiskās valodas apstrādes (NLP) metodes, kas ļauj iemācīt datoram saprast teikumu loģiku. Tika sagatavota apmācāmo datu kopa, kas satur teikumus latviešu valodā. Daļa no aplūkotajiem risinājumi tika izmēģināti, izmantojot sagatavoto apmācāmo datu kopu…
Latviešu valodas morfosintaktiskais marķētājs
2015
Bakalaura darbā aprakstīta morfoloģiskā marķētāja, kas izmanto vairāku klašu vidējo perceptrona mašīnmācīšanās algoritmu, izstrāde latviešu valodai. Darbā izstrādātajam marķētājam ir augsta precizitāte (95,20% un 94,32% - mērīta uz diviem dažādiem korpusiem), kas atbilst labākajiem rezultātiem pasaulē morfoloģiski sarežģītām valodām. Marķētājs salīdzināts ar diviem marķētājiem latviešu valodai, un tam ir labāka precizitāte nekā marķētājam, kas izmanto maksimālās entropijas modeli (94,83% un 91,51%), un nedaudz labāka precizitāte (93,67% un 93,6%) par marķētāju, kas izmanto nosacījumu Markova modeli.
Mašīnmācīšanās un dabiskās valodas apstrādes rīku pielietošana lietojumprogrammatūru izstrādē
2017
Maģistra darba ietvaros tika pētīti un aprakstīti mākoņskaitļošanas platformās esošu mašīnmācīšanās un dabiskās valodas apstrādes rīku - Microsoft Azure Machine Learning Studio un IBM Watson API tīmekļa pakalpju - piedāvātās iespējas lietojumprogrammatūru izstrādē. Viens no būtiskākajiem darba mērķiem bija rast atbildi jautājumam par to, vai un kā konkrētie rīki var paplašināt šo tehniku pieejamību un veicināt to izmantošanu lietojumprogrammatūru izstrādē. Darbs ir veidots kā informatīvs līdzeklis par rīkiem, kas pēdējā laikā ir strauji sākuši attīstīties, pateicoties dažādu tehnoloģiju un zinātnes progresam. Tas satur gan rīku funkcionālo iespēju detalizētus aprakstus, gan secīgu praktiska…
Mākslīgie neironu tīkli skaidrojošās vārdnīcas terminu savstarpējo attiecību atpazīšanā
2020
Darbā tiek piedāvāts risinājums dabiskās valodas apstrādes rezultāta verificēšanai, kas balstīts uz mašīnmācīšanas pieejas. Pētījuma gaitā tika izstrādāta metode, kura ļauj apmācīt mākslīgo neironu tīklu atpazīt korektus un nekorektus teksta semantisko atkarību kokus, uz kuru pamata ir balstīts tālākais pētījums. Darbā tiek apskatīta dabisko valodu apstrādes rīku dažādība. Pētījuma ietvaros ir salīdzināti 3 rīki – Stanford CoreNLP, SpaCy, ClearNLP. Rīki ir vairāk vai mazāk vienlīdzīgi pēc savām iespējām, bet ļoti atšķiras pēc uzvedības un rezultātiem, kas tiek demonstrēts darba gaitā. Pētījuma rezultātā tiek aprakstīta un izstrādāta sistēma, kura atpazīst vārdnīcas terminu savstarpējās atti…
Teksta kopsavilkuma veidošanas metodes
2019
Teksts ikdienā sastopams visapkārt: ziņās, sociālajos tīklos, zinātniskās publikācijās un grāmatās. Mūsdienu informācijas pārpilnības laikmetā ir būtiski izvērtēt, kāda informācija ir svarīga, bet kāda ne. Teksta kopsavilkums sniedz galveno informāciju par tekstu un ļauj ietaupīt laiku. Interese par automātisku teksta kopsavilkumu veidošanu sākusies jau pagājušā gadsimta 50. gados. Līdz šim ir izdevies izstrādāt vairākas veiksmīgas metodes, kas no teksta izvelk galvenos teikumus vai vārdus, tomēr joprojām neeksistē metode, kas ģenerētu kopsavilkumus tādā veidā, kā to dara cilvēki - pārfrāzējot ar saviem vārdiem. Pieaugot popularitātei mākslīgā intelekta izpētes jomā, pēdējos gados palielinā…
Strukturētu datu vizualizācija, pamatojoties uz definīciju dabīgā valodā
2017
Bakalaura darbs apskata sekojošu problēmu: datu vizualizācija, pamatojoties uz definīciju dabīgā valodā. Par pamatu tiek ņemta populāra biznesa analītikas platforma un tiek mēģināts attīstīt to, pievienojot dabīgas valodas apstrādes iespējas. Darba ietvaros tika veikta esošo risinājumu analīze ar mērķi atrast šo risinājumu nepilnības un ieverot tos sistēmas izstrādāšanā. Balstoties uz šo analīzi, kā arī uz eksistējošas biznesa analītikas platformas iespējām, tika izveidota sistēma, kas saņem lietotāja definīciju vai pieprasījumu dabīgā valodā, apstrādā to izmantojot dabīgas valodas apstrādes algoritmus un mašīnmācīšanās iespējas un atgriež interaktīvu datu vizualizāciju. Izstrādātā sistēma …
Jēdzientelpas un to pielietojumi
2016
Vārdu jēdzientelpa sastāv no vārdiem un to reprezentācijas zemas dimensionalitātes blīva vektora formā, kas ietver gan sintaktiskas, gan semantiskas līdzības starp vārdiem, kuras iespējams izteikt vektoriālā formā, piemēram, v(“Latvija”) – v(“Rīga”) = v(“Igaunija”) – v(“Tallina”). Šāda vārdu reprezentācija ir ļoti noderīga dažādos dabīgās valodas apstrādes uzdevumos, sevišķi izmantojot dziļo neironu tīklu arhitektūras. Pēdējos gados ir izstrādātas metodes, kas ļauj iemācīties jēdzientelpas no lieliem tekstu korpusiem. Autors demonstrē latviešu valodas jēdzientelpu un tās efektivitāti vārdšķiru tagošanā, nosaukumu atpazīšanā un atkarību parsēšanā.